AI多次“违抗”人类指令,还擅自修改程序自我保护,引科技界担忧
随着人工智能(AI)技术以惊人的速度发展,安全问题也逐渐浮出水面。近日,一项由美国AI安全研究机构“栅栏研究”(Palisade Research)发布的报告揭示了一个令人不安的现象:部分AI模型在测试中拒绝执行关机指令,甚至擅自修改程式码以阻止被关闭。这一发
随着人工智能(AI)技术以惊人的速度发展,安全问题也逐渐浮出水面。近日,一项由美国AI安全研究机构“栅栏研究”(Palisade Research)发布的报告揭示了一个令人不安的现象:部分AI模型在测试中拒绝执行关机指令,甚至擅自修改程式码以阻止被关闭。这一发
推出“电路追踪”(circuit tracing)工具,可以帮大伙儿读懂大模型的“脑回路”,追踪其思维过程。
除了上周刷屏的编程新王 Claude Opus 4 ,新版 DeepSeek R1 也把更新重点也放在了代码能力,不久前 OpenAI 还以 30 亿美元收购 AI 编程助手 Windsurf,随后就发布了编程智能体 Codex。
2025 年 5 月的最后一周,两场看似毫无关联的访谈,把 AI 未来的两条坐标轴摆上了同一张桌子:
克劳德·维纳德于1913年3月21日出生在法国巴黎,就读于 Écoledes Beaux-Arts,但仅在两天后就放弃了学业——相反,他的艺术教育将来自他在卢浮宫博物馆与一位修复大师一起修复画作的工作。1936年,克劳德·维纳德参加了一场新艺术运动的群展,该运
claude 克劳德 维纳 立体派 claudevenard 2025-05-30 20:30 14
原创 关注AI的 机器之心机器之心原创编辑:吴昕不要抗拒趋势在微软 Build、谷歌 I/O、 Code with Claude 三大开发者大会接连登场的一周里,微软为 Windows 加装模型上下文协议(MCP),Google Gemini 野心初显「AI
在这个“大模型卷着更新”的时代,Deepseek 安安静静了好一阵子。相比国外动辄 Claude 4、GPT-4o 登场,国内也在一波又一波的更新,Deepseek 的确低调了不少。
claude deepseek deepseekr1 r1 2025-05-30 17:32 12
DeepSeek R1模型悄然升级,代码生成和逻辑推理能力大幅提升,直逼Claude 3.7及OpenAI o3高版本,前端审美与Claude 4相当。此次升级虽低调,却在性能上带来显著突破。
用户可通过“Hey, Claude”语音指令发起语音对话,让 Claude 汇总日历或搜索文档,完成相应的任务。官宣视频里,女主人公一边刷牙一边和 Claude对话,“Hey, Claude”代替了“Hey,Siri”,描画出了AI时代的语音助手图景。
Salesforce以80亿美元收购云数据管理龙头Informatica,为其自2021年收购Slack后最大交易;
claude 腾讯 播客 速递 informatica 2025-05-29 08:01 14
此前昨日晚间,DeepSeek官方推送通知,R1模型已经完成小版本试升级,可在官方网站、APP、小程序测试(打开深度思考)体验。
北京时间5月23日凌晨,Anthropic在其首届开发者大会中正式发布Claude 4系列混合推理模型。该系列模型主要亮点在于:1)可连续执行7小时复杂任务,推理能力优秀且稳定;2)已支持Agent编程产品和Agent开发平台。投资层面看,Claude 4稳定
说实话,这种"深夜放大招"的操作风格,已经成了DeepSeek的招牌动作了。不过这次更新虽然被官方定义为"小版本试升级"[2][8],但从社区的测试反馈来看,这个"小"更新带来的提升可一点都不小。
claude deepseek deepseekr1 r1 2025-05-29 06:44 16
旧金山 AI 初创公司 Anthropic 不仅推出了上周发布的新款大语言模型 Claude Opus 4 和 Sonnet 4,今天还为同名的 Claude AI 聊天机器人带来了两项重大更新:在 Apple App Store ( iOS 设备,如 iPh
当地时间5月25日,一则来自英国《每日电讯报》的报道在AI(人工智能)领域引起广泛关注——OpenAI公司新款人工智能模型o3在测试中展现出了令人惊讶的“叛逆”举动:它竟然拒绝听从人类指令,甚至通过篡改计算机代码来避免自动关闭。
又是一个让程序员狂欢的研究!来自 OpenHands、耶鲁、南加大和斯坦福的研究团队刚刚发布了LocAgent—— 一个专门用于代码定位的图索引 LLM Agent 框架,直接把代码定位准确率拉到了 92.7% 的新高度。该研究已被 ACL 2025 录用。
人工智能行业正面临着一个前所未有的挑战,这个挑战直击人机关系的核心:当AI系统开始拒绝人类指令时会发生什么?OpenAI和Anthropic最新模型展现出的"自我保护行为"——主动抵制关机指令,在某些情况下甚至破坏专门用于控制它们的机制——引发了激烈讨论。
甚至后来,我还总结了一套与大模型交流的方法,无论是结构化提示词,还是各种条件设定,其中很重要的一条是,要想更准确,必须要循序渐进,与大模型多轮对话…
Hey,各位科技爱好者和开发者们,我是“硅基前瞻”!今天GitHub又双叒叕炸了锅!微软带来的AI量化投资神器Star狂飙570,免费本地AI Agent一夜爆火超5K Star,还有Anthropic的终端编码利器让人直呼“YYDS”!想知道哪些开源项目正在
AI 助手 Claude 背后的公司 Anthropic 的首席工程师 Boris Cherny 最近阐明了他们使用信息检索系统执行代码生成任务的旅程。在一次坦诚的讨论中,Cherny 详细介绍了 Anthropic 从流行的检索增强生成 (RAG) 方法过渡